超快组装软件的使用--hifiasm软件

Original 生信阿拉丁生信阿拉丁 2022-05-16

收录于合集 #基因组研究 16个

点击上方关注我们获取更多

背景

三代组装常用的软件有canu、Falon、WGTBG及SmartDenovo等。canu软件的优点是组装的准确度高、连续度表现优秀的概率高，缺点是速度比较慢；而WTDBG软件运行速度快、但是对重复序列比较敏感，对简单基因组组装效果较好，Falon比较合适一定的杂合基因组组装。而最近发布出来的hifiasm，可以在一周内完成超大基因组的组装，极大的降低了整体的分析时间。

加州红杉的相关数据如下：

服务器配置：64核 512Gb RAM

生成HiFi数据：46,000 CUP hours

基因组组装：7,200 CUP hours，总共分析时间6天

为了进一步的了解这个软件的使用，我们下载了相关ccs的数据进行组装的测试。

软件原理

Hifiasm使用的是Pacbio的Hifi序列，基于单倍性的快速组装工具。不同于目前大多数软件，hifiasm在组装中尽可能的保留了多的单体型信息。

对于非trio家系的组装，输入的是hifi的序列（fastq或者fasta格式），而对于trio家系的组装，除了需要hifi序列外，还需要父亲、母亲的index文件（可以使用yak来生成）。

软件安装

1# Install hifiasm (requiring g++ and zlib)
2git clone https://github.com/chhylp123/hifiasm
3cd hifiasm && make
4# Assembly
5./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz

测试数据下载

从GIAB上下载pacbio的数据。GIAB是一个标准品的数据，里面包含了各种测序平台的数据，正好可以拿来作为测试数据。

路径为： ftp://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/PacBio_SequelII_CCS_11kb/

由于下载下来的是bam格式，需要转换成fasta格式。

samtools view *.bam | awk '{print ">"$1"\n"$10}' > fasta

软件参数说明

 1 ./hifiasm 
 2Usage: hifiasm [options] <in_1.fq> <in_2.fq> <...>
 3Options:
 4    -o FILE       prefix of output files [hifiasm.asm]
 5    -t INT        number of threads [1]
 6    -r INT        round of correction [2]
 7    -a INT        round of assembly cleaning [4]
 8    -k INT        k-mer length [40] (must be < 64)
 9    -i            ignore saved overlaps in *.ovlp* files
10    -z INT        length of adapters that should be removed [0]
11    -m INT        size of popped large bubbles for contig graph [10000000]
12    -p INT        size of popped small bubbles for haplotype-resolved unitig graph [100000]
13    -n INT        small removed unitig threshold [3]
14    -x FLOAT      max overlap drop ratio [0.8]
15    -y FLOAT      min overlap drop ratio [0.2]
16    -v            show version number
17    -h            show help information
18Example: ./hifiasm -o NA12878.asm -t 32 NA12878.fq.gz
19See `man ./hifiasm.1' for detailed description of these command-line options.

其中常用的为：

-o ：输出文件的前缀

-t：线程数

-k：kmer数

-z ：adapter的长度

软件使用

hifiasm -t 32 -o hifi fasta

-t 线程数目

-o 结果前缀

结果说明

prefix.r_utg.gfa （Haplotype-resolved raw unitig^【2】 graph in GFA^【3】 format）：该结果文件保留组装生成的所有单倍型信息包括体细胞突变，测序错误。

prefix.p_utg.gfa （Haplotype-resolved processed unitig graph without small bubbles ）：对上面raw unitig 进行过滤，去掉由于体细胞突变和数据背景噪音引起的small bubbles（这个并不是真正的单体型信息），对于高度杂合基因组物种优先选择这个结果。

prefix.p_ctg.gfa （Primary assembly contig^【4】 graph）：this is the preferred output for inbred strains or human，对于低杂合度物种来说，优先选择该文件；对于高杂合度物种，该结果代表其中一个单倍型。

prefix.a_ctg.gfa （Alternate assembly contig graph）：组装出来的另一套单体型基因组结果。

prefix.ec.fa ：Haplotype-aware error corrected reads in fasta format

prefix.ovlp.paf ：All-to-all overlaps in the PAF^【5】 format

结果测评

将hifiasm 组装 gfa 结果转成 fasta

perl hifi2fa.pl ctg/utg.gfa outfile

hifiasm 组装结果 fa N50评估

组装结果大小3.2G，和已知人基因组结果一致 N50：19M。

注意事项

投递内存设置：数据量100G 时建议投递1.5倍大小 100 *1.5= 150G内存。如果遇到内存报错，可按照3倍数据量大小内存设置进行投递。
hifiasm 组装：通过比较发现，减小bubbles 的大小，会明显提升组装的速度，组装结果N50会降低。从准确度考虑，建议使用默认参数，增加线程数目。

END

reference

https://github.com/chhylp123/hifiasm
unitig（http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology）
GFA（https://github.com/pmelsted/GFA-spec/blob/master/GFA-spec.md）
contig（http://wgs-assembler.sourceforge.net/wiki/index.php/Celera_Assembler_Terminology）
PAF（https://github.com/lh3/miniasm/blob/master/PAF.md）

作者：童蒙

编辑：amethyst

◆ ARGO-工作流部署与管理工具◆ 全长转录本的鉴定◆ DNA-RNA互作检测技术◆ORF的前世今生◆植物泛基因组的染色体重排的量化研究

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

超快组装软件的使用--hifiasm软件

reference

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

生成图片，分享到微信朋友圈

超快组装软件的使用--hifiasm软件

reference

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时